1
데이터 활용 패러다임 비교: 레이블링 스펙트럼
EvoClass-AI003강의 10
00:00

데이터 활용 패러다임 비교: 레이블링 스펙트럼

머신러닝 모델의 성공적인 배포는 레이블 데이터의 가용성, 품질, 비용에 크게 달려 있습니다. 인간의 주석 작업이 비싸거나 불가능하거나 전문성이 요구되는 환경에서는 기존의 학습 패러다임은 효율성이 떨어지거나 완전히 실패할 수 있습니다. 우리는 정보 활용 방식에 따라 세 가지 핵심 접근법을 구분하는 레이블링 스펙트럼을 소개합니다:지도 학습 (SL), 비지도 학습 (UL), 그리고 반지도 학습 (SSL).

1. 지도 학습 (SL): 높은 정확도, 높은 비용

지도 학습은 모든 입력 $X$가 명확하게 알려진 참값 레이블 $Y$와 짝지어진 데이터셋에서 작동합니다. 이 방법은 분류 또는 회귀 과제에서 일반적으로 가장 높은 예측 정확도를 달성하지만, 밀도 높고 고품질의 레이블링에 의존하기 때문에 자원 소모가 큽니다. 레이블된 예시가 부족하면 성능이 급격히 저하되며, 이는 거대하고 변화하는 데이터셋에 대해 이 패러다임이 취약하고 종종 경제적으로 지속 불가능하다는 의미입니다.

2. 비지도 학습 (UL): 은닉 구조 탐색

비지도 학습은 오직 레이블 없는 데이터 $D = \{X_1, X_2, ..., X_n\}$에만 작동합니다. 그 목적은 데이터 매니폴드 내부의 내재적 구조, 기초 확률 분포, 밀도, 또는 의미 있는 표현을 추론하는 것입니다. 주요 응용 분야로는 클러스터링, 매니폴드 학습, 표현 학습 등이 포함됩니다. 비지도 학습은 사전 처리 및 특징 공학에 매우 효과적이며, 외부 인간의 입력 없이도 유의미한 통찰을 제공합니다.

질문 1
많은 양의 비레이블 데이터를 활용하여 고비용의 인간 레이블링에 대한 의존도를 줄이기 위해 설계된 학습 패러다임은 무엇입니까?
지도 학습
비지도 학습
반지도 학습
강화 학습
질문 2
모델의 주요 과제가 차원 축소(예: 주성분 찾기) 또는 클러스터링이라면, 어떤 학습 패러다임이 보편적으로 사용됩니까?
지도 학습
반지도 학습
비지도 학습
전이 학습
도전 과제: 반지도 학습 목표 정의하기
통합 손실 함수 개념화
지도 학습은 레이블 정확도에만 기반하여 최적화하는 반면, 반지도 학습은 균형 잡힌 최적화 전략이 필요합니다. 전체 손실은 레이블셋에서의 예측 정확도를 반영해야 하면서도, 비레이블셋 전반에 걸쳐 일관성을 유지(예: 매끄러움 또는 낮은 밀도 분리)하도록 해야 합니다.

주어진 조건: $D_L$: 레이블 데이터. $D_U$: 비레이블 데이터. $\mathcal{L}_{SL}$: 지도 학습 손실 함수. $\mathcal{L}_{Consistency}$: $D_U$에서 예측의 매끄러움을 강제하는 손실 함수.
단계 1
비레이블 일관성 구성 요소에 가중치 계수 $\lambda$를 포함하여 전체 최적화 목표 $\mathcal{L}_{SSL}$의 일반적 형태를 작성하세요.
해결책:
반지도 학습 손실의 개념적 형태는 두 구성 요소의 가중합입니다: $\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$. 스칼라 $\lambda$는 레이블 정확도와 구조 의존성 사이의 트레이드오프를 조절합니다.